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摘 要 : 推荐 系统 需要 利用 到 大 量 的 用 户 行为 数据 ， 这 些 数 据 极 有 可 能 暴露 用 户 的 喜好 ， 给 人 们 关心 的 隐私 问题 带 
来 了 巨大 的 挑战 。 为 保证 推荐 精度 与 用 户 隐私 ， 提 出 一 种 结合 差分 隐私 与 标签 信息 的 抵 阵 分 解 推荐 模型 。 该 模型 首 
先 将 标签 信息 加 入 到 项 目 相似 度 的 计算 过 程 ， 随 后 融入 到 短 阵 分 解 推荐 模型 中 提高 推荐 精度 ， 最 后 运用 随机 梯度 下 
降 法 求解 模型 最 优 值 。 为 解决 用 户 隐私 问题 ， 将 拉 普 拉 斯 骂 声 划分 成 两 部 分 ,分别 加 入 项 目 相 似 度 与 梯度 求解 过 程 
a 使 得 整个 推荐 过 程 满足 g- 差 分 隐私 ， 并 在 一 个 真实 的 数据 集 上 分 析 验 证 算法 的 有 效 性 。 实 验 表明 ， 提 出 的 方法 
能 在 保证 用 户 隐 私 的 情况 下 ， 仍 具有 较 高 的 推荐 精度 
业 全 本 推荐 系统 ; 抵 阵 分 解 ; 标签 相似 度 ; 差分 隐私 ; 隐私 保护 
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Differential privacy matrix factorization recommendation algorithm fusing tag similarity 


Zheng Jian, Wang Xiaoqian+ 
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Abstract: The recommendation system needs to utilize a large amount of user data, which may expose the user's 
preferences and pose a huge challenge to the privacy concerns. To ensure the accuracy of recommendation and user privacy, 
this paper proposed a matrix factorization recommendation model combining differential privacy and tag information. 
Firstly, the model added the tag information to the process of calculating item similarity, then integrated it into the 
recommendation model to improve the recommendation accuracy. Finally, this paper solved the model optimal value by the 
stochastic gradient descent method. For protecting users from privacy threats, the proposed approach divided Laplace noise 
into two parts, which are added to the process of item similarity and gradient solution respectively, so that the whole 
recommendation process satisfied the differential privacy, and analyzed the validity of the algorithm on a real data set. 
Experimental results show that the proposed method has high recommendation accuracy while protecting users’ privacy. 
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0 引言 


算 预 测评 分 ， 从 而 保护 用 户 隐私 四。 虽然 并 不 会 损失 推荐 精 
度 ， 但 需要 额外 的 计算 成 本 。 由 于 用 户 与 项 目 数 增多 及 复杂 
协同 过 滤 (collaborative filtering，CF) 是 最 流行 的 推荐 技 ”的 加 密 和 解密 在 计算 上 的 限制 ， 基 于 加 密 的 方法 面临 着 严重 
术 之 一 ， 通 过 使 用 各 种 数据 挖掘 或 机 器 学 习 技 术 来 分 析 用 户 的 扩展 性 问题 。Batmaz 等 人 中 针对 不 同 的 评分 类 型 提出 了 8 
的 历史 行为 数据 实现 个 性 化 推荐 的 ， 可 进一步 分 为 基于 邻 域 Rhy 通过 均匀 分 布 或 高 斯 分 布 来 随机 扰 
的 方法 和 基于 模型 的 方法 中。 如 今 互 联网 快速 发 展 及 社交 网 。 乱 评 分 ， 于 过 大 的 随机 性 会 大 大 降低 推荐 精度 ， 因 此 
各 的 兴起 ， 能 从 社交 网 络 中 挖 据 用 户 属性 之 间 的 关系 来 提高 ee 以 控制 。 
E 荐 精度 中。 与 此 同时 ， 标 签 作 为 用 户 对 物品 的 描述 ， 也 反 差分 隐私 中 首次 被 Mcsherry 等 人 外 应 用 到 推荐 系统 ， 通 
映 了 用 户 的 偏好 信息 中 ， 利 用 标签 进行 相似 度 计 算 能 缓解 数 过 向 物品 协 方差 矩阵 中 添加 噪声 再 提交 给 推荐 系统 ， 可 对 推 
据 稀 疏 性 问题 。 结果 施加 干扰 。Sun 等 人 09 设 计 了 两 种 差分 隐私 分 别 适 
虽然 推荐 系统 能 够 为 用 户 提供 个 性 化 的 内 容 和 服务 建 于 物品 的 协同 过 滤 和 基于 用 户 的 协同 过 滤 ， 通 过 一 定 概率 
议 ， 但 在 推荐 过 程 中 却 存 在 着 侵犯 用 户 隐私 的 可 能 性 。 收 集 ”对 用 户 取样 来 构造 低 敏感 度 评分 矩阵 计算 项 目 相 似 度 ， 从 而 
到 的 用 户 信息 可 能 被 服务 提供 方 有 意 或 无 意 的 泄露 ， 或 服务 减少 噪声 的 引入 量 。Friedman 等 人 00 针 对 矩阵 分 解 推荐 模型 
器 收 到 黑客 攻击 造成 用 户 信息 被 窃取 等 ， 都 会 导致 用 户 信息 。 提出 了 几 种 差分 隐私 噪声 添加 方法 。Hua 等 人 09 通 过 对 目标 
泄露 由。 文献 [3] 表 明 ， 攻 击 者 在 已 知 目标 用 户 一 定 背景 信息 ”函数 进行 扰乱 ， 并 根据 用 户 划 分 噪声 到 目标 函数 。Zhu 等 人 
的 情况 下 创建 出 与 目标 用 户 具有 相同 评分 的 虚假 邻居 用 户 ， 03 针 对 标签 推荐 系统 提出 在 对 标签 聚 类 的 过 程 中 添加 噪声 
择 
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NS 下 
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然后 通过 观察 推荐 系统 的 输出 结果 或 者 项 目 相关 性 列表 ， 可 ”以 扰乱 聚 类 结果 ， 之 后 通过 指数 机 制 从 目标 标签 所 在 组 选 
以 推断 出 目标 用 户 的 行为 历史 ， 甚 至 是 评分 信息 ， 这 类 攻击 。 该 标签 的 隐私 标签 ， 最 后 在 每 个 用 户 的 标签 权重 中 添加 拉 普 
被 称 为 最 近邻 (KNN) 攻 击 。 通 常 ， 协 同 过 滤 方 法 采用 某 些 。 拉 斯 噪声 来 保护 用 户 隐私 。 鲜 征 征 等 人 0 在 SVD++ 的 基础 上 
传统 的 隐私 保护 技术 ， 如 加 密 、 匿 名 和 扰乱 等 ， 其 中 加 密 技 ” 基于 梯度 扰动 、 基 于 目标 函数 扰动 和 基于 输出 结果 扰动 三 种 
术 采 用 同 态 加 密 对 用 户 评分 进行 加 密 ， 然 后 根据 加 密 数 据 计 ”SVD++ 的 隐私 保护 模型 。 曹 春 萍 等 人 W151 虽然 在 推荐 系统 中 利 
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用 差分 隐私 保护 标签 数据 ， 实 则 提出 的 是 一 种 隐私 保护 标签 算 攻 击 者 知道 除 一 条 记录 之 外 的 所 有 记录 信息 ， 也 无 法 推测 
聚 类 算法 ， 忽 略 了 对 用 户 评分 的 保护 。 出 这 条 记录 的 敏感 信息 。 定 义 如 下 : 

虽然 人 们 已 经 提出 了 多 种 差分 隐私 推荐 算法 ， 但 己 有 算 定义 1 ss 差分 隐私 0 给 定 一 个 隐私 算法 M，, 对 于 两 
法 没有 考虑 到 标签 数据 在 矩阵 分 解 模型 中 的 应 用 ， 因 此 在 面 个 之 多 相差 一 条 记录 的 相 邻 数据 集 D 和 Dp' ， 如 果 算 法 M 在 


对 高 维 稀疏 型 数据 时 依然 存在 扩展 性 较 差 和 项 目 冷 启 动 问 ” 这 两 个 数据 集 上 的 输出 结果 5(S s Range(M)) 满足 下 式 , 则 称 算 


题 。 为 此 本 文 提 出 一 种 融合 标签 相似 度 的 差分 隐私 矩阵 分 解 法 M 满足 -差分 隐私 。 
E 荐 模型 (differential privacy matrix factorization based tag, Pr[M(D) eS]<e: xPr[M(D") eS] (3) 
DPMFBT), 并 同时 保护 标签 数据 和 用 户 评分 。 模 型 加 入 基于 其 中 :， Pr] 代表 算法 M 暴露 隐私 信息 的 概率 ; 参数 。 为 隐私 


标签 信息 的 项 目 相似 度 作 为 正则 化 项 以 约束 项 目 潜 在 特征 矩 ” 预算 代表 隐私 保护 的 程度 ， 一 般 来 说 参数 值 越 小 隐私 保护 级 
阵 ， 并 在 项 目 相似 度 与 模型 求解 过 程 中 加 入 拉 普 拉 斯 噪声 ， 别 越 高 ， 但 是 会 导致 查询 结果 与 真实 结果 偏离 较 大 可 用 性 降 
在 保证 推荐 精度 的 同时 保护 用 户 评分 的 隐私 。 低 。 然 而 = 的 取 值 是 一 个 开放 性 的 问题 ， 它 取决 于 数据 拥有 
1 ”相关 知识 方 能 对 用 户 造 成 的 威胁 和 用 户 对 隐私 的 关心 程度 ， 有 些 情况 

更 大 的 = 值 可 以 提供 更 有 意义 的 隐私 保证 。 
1.1 和 矩阵 分 解 实现 s- 差分 隐私 的 方式 主要 有 两 种 : 拉 普 拉 斯 机 制 和 


于 矩阵 分 解 09 准 确 性 和 扩展 性 好 、 有 灵活 性 高 而 成 为 协 指数 机 制 。 前 者 针对 数值 型 结果 ， 通 过 向 真实 查询 结果 中 添 
同 过 滤 中 一 种 非常 流行 且 有 效 的 方法 。 和 矩阵 分 解 是 通过 对 用 加 拉 普 拉 斯 噪声 扰乱 查询 结果 。 后 者 适用 于 非 数值 型 查询 结 
户 一 项 目 评分 矩阵 降 维 ， 将 一 个 高 度 稀疏 的 评分 矩阵 分 解 为 果 ， 是 以 一 定 的 概率 选择 查询 结果 。 品 声 的 添加 量 与 查询 函 
两 个 低 维 和 矩阵， 其 中 一 个 矩阵 看 做 是 用 户 潜在 特征 矩阵 ， 另 数 的 敏感 度 有 关 。 
个 为 项 目 潜在 特征 矩阵。 利用 用 户 特征 矩阵 和 项 目 特征 甜 定义 2 ”敏感 度 0]。 对 于 查询 函数 f:D 下 RR， 相 邻 数 据 
阵 的 乘积 来 进一步 的 预测 缺失 数据 。 集 D 和 pD'， 函 数 了 的 敏感 度 定 义 为 
< 股 设 给 定 一 个 mx 的 评分 矩阵 R， 它 描述 了 普 个 用 户 对 af maxlf(D) -FON, 
~ n 个 项 目的 评分 。 和 矩阵 分 解 方法 试图 用 分 解 得 到 的 两 个 mxd . 
和 wxd 的 低 维 矩阵 和 2 相 乘 来 逼近 评分 矩阵 R ， 使 得 其 中 : D 和 D' 为 至 多 相差 一 条 记录 的 数据 集 。 敏 感度 入 只 
R~ PO (1) 与 查询 函数 的 类 型 有 关 ， 代 表 着 相 邻 数据 集 上 同一 查询 结果 
其 中 4<minGm,n) ， 和 矩阵 Ps 的 第 4 行 向 量 和 和 矩阵 2… 的 第 i 的 最 大 差异 。 
行 向 量 的 内 积 代表 着 用 户 4 对 项 目 i 的 预测 评分 。 定义 3 Laplace 机制 01。 给 定数 据 集 D ,对 于 任意 查询 
为 了 使 预测 评分 最 贴近 用 户 的 真实 评分 ， 需 最 小 化 矩阵 函数 f:D 一 R， 若 算法 M 满足 式 (5)， 则 该 算法 提供 s- 差分 
R 与 PQ 之 间 的 误差 。 本 文 用 欧 氏 距离 来 表示 ， 即 隐私 保护 。 
Wn, -POT) + Pl +lQl;) (2) M(D)= f(D) + Lap(Y) (5) 
其 中 7 为 指示 函数 ， 当 用 户 对 项 目 有 评分 时 函数 值 为 1， 否 Laplace 概率 密度 函数 为 P(x|5) =/2b)ec2， 加 入 的 噪声 
为 0。 第 二 项 为 了 防止 过 拟 合 ， 4>0 为 惩罚 参数 ， 决 定 量 与 函数 的 敏感 度 A 成 正比 ， 与 隐私 预算 = 成 反比 。 
标 函 数 的 正则 化 程度 ， 惩 罚 参 数 越 大 ， 正 则 化 程度 越 大 。 通 定义 4 指数 机 制 1 中 ,假设 4(D,7) 是 数据 集 D 输出 7 的 可 
常 采 用 交 蔡 最 小 二 乘法 和 随机 梯度 下 降 法 对 目标 函数 进行 最 用 性 函数 ， 它 度量 输出 7 的 质量 ，Af 表示 函数 4(D,7) 的 灵敏 
小 化 ， 求 得 局 部 最 小 值 。 度 ， 若 式 (6) 成 立 ， 则 算法 M 满足 指数 机 制 *- 差分 隐私 。 
地 征 和 矩阵 P £4(D,7) 
MD)= [retum re Hn j (6) 


2 11.740| 0.003 1.3 ”隐私 预算 的 组 合 性 质 


0.273 四 i 
些 问题 可 能 需要 对 隐私 预算 进行 分 配 后 再 添加 到 算法 
[3| | 1 1114 1 1 流程 志 献 访 已 种 得 泛 访 和 组合 性 质 : 
十 十 二 流程 中 ， 文 献 [18] 说 明 了 两 种 得 到 矿 泛 应 用 的 组 合 性 质 ， 
[3| 1114 | 14 | | 行 组 合 性 和 序列 组 合 性 。 
TT 后 生 性 质 1 并 行 组 合 性 。 假 设 有 一 组 隐私 机 制 算法 
评分 和 矩阵 R M={M,…M。} ， 在 一 组 不 相交 集 上 分 别 满足 a 差分 隐私 ， 
则 组 合算 法 M 提供 (max{a,.…s)- 差分 隐私 。 
性 质 2 序列 组 合 性 。 假 设 组 隐私 机 制 算法 
M={Mi,…M。} ， 在 同一 个 数据 集 上 分 别 满足 s- 差分 隐私 ， 
[1.395l0.178|1.291| 则 组 会 稼 法 My 提 ”"s)- 差分 陷 
则 组 合算 法 W 提供 (2 se)- 差分 隐私 。 
项 目 特征 矩 阵 Q 
日 示 签 的 隐 
> 2 。 融入 标签 的 隐私 保护 矩阵 分 角 
Fig. 1 Matrix factorization 2.1 引入 标签 正则 化 项 的 和 矩阵 分 解 模型 
1.2 差分 隐私 如 今 社交 标签 已 经 成 为 推荐 系统 中 的 一 个 重 


要 组 成 部 
差分 隐私 是 通过 添加 噪声 来 掩盖 相 邻 数据 集 之 间 查 询 的 。” 分 ， 用户 使 用 的 标签 越 多 代表 这 个 标签 对 用 户 越 重 要 ， 项 
差异 性 。 差 分 隐私 查询 确保 在 一 个 数据 集中 增加 或 删除 一 条 ” ”被 标注 某 个 标签 的 次 数 越 多 则 这 个 标签 越 能 代表 这 个 项 目 。 
数据 查询 结果 保持 不 变 ， 从 而 使 得 攻击 者 不 能 根据 查询 结果  ” 寻找 项 目 邻 居 时 ， 在 用 户 评分 不 足 的 情况 下 可 以 考虑 利用 标 
推断 出 用 户 隐私 。 并 且 不 需 关 心 攻 击 者 拥有 的 背景 知识 ， 就 ” 签 信 息 来 计算 相似 度 ， 能 够 缓解 评分 数据 稀疏 性 问题 。 
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表 1 项 目 一 标签 矩阵 2 
Table 1 Item-tag matrix 00: 全 
t t 志 pp EC 
i 3 10 i 26 2 jv Simli, f) (13) 
i 5 21 3 Sn YO — Ser ie) 
a sy 3 人 Ss +p Ssenin Sim(f ,8) 
in 9 8 a 14 JeNO) 2 ,np Sim(f, 8) 
本 文 用 标签 向 量 来 表示 项 目的 特征 ， 则 项 目的 标签 特 更 新 方式 如 下 : 
征 向 量 为 T=(ownsts.…tm) ，m 为 标签 总 数 ,其 中 每 个 分 量 表 | 本 
示 项 目 被 标注 该 标签 的 次 数 ， 项 目 -标签 矩阵 如 表 1 所 示 。 oF 
用 户 推荐 的 项 目 应 该 与 用 户 的 兴趣 越 接 近 越 好 ， 因 此 考 oma (8) 
虑 让 每 个 项 目的 潜在 特征 向 量 与 该 项 目的 邻居 项 目的 潜在 特 239 


征 向 量 更 加 接近 。 基 于 这 个 假设 ， 在 计算 项 目 相似 度 的 时 候 
加 入 标签 信息 ， 从 中 选择 相似 度 最 大 的 几 个 项 目 作 为 邻居 项 
目 并 在 矩阵 分 解 过 程 中 保持 这 种 联系 ， 因 此 设计 如 下 基于 标 
签 信息 的 矩阵 分 解 模型 (matrix factorization based tag, 
MEFBT)。 


1 
inL(R,P,0)== Tu(Ru— PQ )? 
Pip LR,P,0) = 72 YI 27) 


总 


2 Dn Simli, f) 


4 
+3(IPl hol) 


其 中 : a>0，NQ 表示 项 目 i 的 邻居 项 目 ， 本 文 假设 在 这 个 


模型 中 每 个 项 目 应 该 与 其 邻居 项 目 更 加 接近 ， 并 且 根 据 相 似 
度 的 不 同 对 邻居 项 目 分 别 对 待 。 在 这 个 目标 函数 中 本 文 加 入 
了 一 个 正则 化 项 : 

ow DSinG,f) xO 中 

站 ZevnSin 让 


表示 项 目 与 其 邻居 项 目的 差距 ， 最 小 化 目标 函数 来 使 它们 之 
间 的 差距 最 小 以 此 来 约束 项 目 特征 和 矩阵， 使 得 项 目 特征 向 量 
依据 相似 度 来 贴近 其 邻居 项 目的 特征 向 量 。 
2.2 ”项目 相似 度 计算 

为 了 使 得 相似 度 的 结果 更 加 准确 ， 本 文采 用 评分 信息 与 
标签 信息 相 结合 的 方式 ， 先 根据 评分 信息 利用 皮尔 逊 相关 系 
数 计算 项 目 相似 度 ， 计 算 公式 如 下 ; 

CRw 一 RD (Ry— Rj) 


fel(DNI(D 


| > (Ra-R)- 
fel(DNI(D) 


其 中 : Rs 和 Ry 代表 用 户 4 对 项 目 i 和 项 目 f 的 评分 , R 和 RR 


分 别 代表 项 目 i 和 项 目 f 的 平均 评分 ， 相 似 度 的 取 值 范围 为 
[1 。 然 后 在 利用 标签 信息 计算 项 目 相 似 度 : 
2 0-7),) 


fel(DMNTOD 


| | 二 -7 
fel(DN(D) fe 
其 中 : Ti 和 Ty 分 别 代 表 项 目 i 和 项 目 f 被 打上 标签 1 的 次 数 ， 
元 和 区 分 别 代表 项 目 i 和 项 目 /的 平均 标签 数 。 项 目 ; 与 项 
f 的 最 终 相 似 度 为 : 

Sim(i, j))=a: Rsim(i, j)+(1—a):Tsim(i, j) (11) 
目标 函数 局 部 最 小 值 采 用 随机 梯度 下 降 法 求 得 ， 式 (7) 
对 Pr 和 Qi 的 偏 导数 如 下 : 


OL < 
— = >》 (P.O;:— Ra)Oi+ AP, 
Bp -OHPQ )Q:+ (12) 


Rsim(i, 让 (9) 


六 (Ry—R,) 


fel(DN(ND 


Tsim(i, j) = (10) 


其 中 : 4 为 学 习 速率 ， 代 表 每 次 迭代 的 步 长 。 一 般 来 说 学 习 
速率 越 大 连 代 次 数 越 少 ， 但 是 太 大 会 导致 迭代 结果 发 散 越 来 
越 偏离 最 小 值 。 小 学 习 速 率 虽 然 会 得 到 更 精确 的 结果 ， 但 是 
时 间 代 价 太 大 ， 因 此 需 选 择 合适 的 学 习 速 率 。 
2.3 差分 隐私 和 矩阵 分 解 模型 
攻击 者 在 已 知 目标 用 户 一 部 分 项 目 评分 的 情况 下 ， 如 果 
从 推荐 系统 中 得 知 项 目 特征 抢 阵 2 ， 可 通过 回归 方法 推断 该 
目标 用 户 的 潜在 特征 向 量 ， 从 而 获得 目标 用 户 对 其 他 项 目的 
评分 。 本 文 将 拉 普 拉 斯 噪声 分 为 两 部 分 ， 一 部 分 加 入 到 相似 
度 中 得 到 隐私 相似 度 ， 男 一 部 分 加 入 到 梯度 求解 过 程 中 ， 使 
整个 矩阵 分 解 过 程 满 足 =- 差分 隐私 。 
2.3.1 隐私 相似 度 


首先 对 项 目的 相似 度 进行 隐私 保护 操作 ， 在 相似 度 计算 

的 过 程 中 加 入 一 部 分 拉 普 拉 斯 噪声 来 隐藏 真实 的 项 目 相似 
度 。 形 式 如 下 : 

Raimn 旋 = Rain +LapC2) (16) 

Tsimlis ) = Tsimli, D+ Lap(—) (17) 


最 后 根据 式 (11) 计 算 扰 乱 后 的 融合 项 目 相似 度 ， 其 中 敏 
感度 与 相似 度 的 计算 函数 有 关 ， 通 过 式 (4) 可 求 得 上 式 中 的 敏 
感度 值 。 本 文采 用 的 是 皮尔 逊 相关 系数 ， 敏 感度 度 则 代表 皮 
尔 逊 相关 系数 的 最 大 差距 ， 因 此 可 得 A=2 。 

算法 1 中 第 6,7 行 分 别 将 拉 普 拉 斯 噪声 添加 到 评分 相似 
与 标签 相似 度 中 得 到 各 自 的 隐私 相似 度 , 第 10 行 以 一 定 权 
结合 上 步 得 到 的 两 种 隐私 相似 度 得 到 最 终 的 项 目 隐私 相似 


洱 凤 浊 


定理 1 算法 1 满足 s/2- 差分 隐私 。 
证 明 对 于 两 个 相 邻 评分 矩阵 R 和 R' 及 两 个 相 邻 的 标 


签 矩 阵 T 了 和 7T'， 由 Rsime[-141]，Tsime[-41 它们 相似 度 之 间 
的 敏感 度 分别 为 : 
max | Rsim; ,(R)— Rsim; ;(R')|=2 (18) 
max ||T sim; ,(T)—Tsim,,(T) =2 (19) 


根据 差分 隐私 定理 1， 第 6 行 与 第 7 行 添 加 的 品 声 满足 
Laplace 机 制 。 同 时 根据 差分 隐私 并 行 组 合 性 ， 算 法 1 满足 
2/2- 差分 隐私 。 


Algorithm 1: Similarity Perturbation 


Input: R= {rwi} — “User-item” rating matrix; 

T= {tu} —"“ user-tag” counting matrix; 

8 一 privacy budget. 

Output: § ={ sim(i,)) } -- privacy item similarity matrix. 


1l: Divided s into 8/2 and /2 


2: for each itemi do 


201901.00025V1 


国 
国 


XIV 


china 


录用 定稿 
3 for each item j do 
4: calculate Rsim(i, j) according to 
3: calculate Tsim(i, j) according to 
本 A 4 
6: Rsim(li, )) = Rsim(i, j)) + Lap(—) 
€ 
i ee 4 
于 Tsim(i, ) =Tsim(i, j)) + Lap(—) 
€ 
8: end for 
9: end for 
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的 数据 集 上 来 验证 算法 的 有 效 性 , 实验 使 用 Python 实现 相关 

formula (9) 算法 。 并 将 提出 的 算法 和 与 本 文 算法 相近 的 文献 [3,11,14] 进 
formula (10) 行 对 比 与 分 析 。 
3.1 实验 数据 

本 文采 用 GroupLens 提供 的 MovieLens-1M 数据 集 。 其 


10: sim(i, ))=a: Rsim(i, )+(1—a):Tsim(i, )) 


ll:return 9 


2.3.2 梯度 扰乱 


本 文采 用 梯度 扰乱 的 方法 实现 


度 下 降 的 基本 思想 是 以 梯度 的 反方 向 
度 与 学 习 速 率 成 比例 。 梯 度 扰 翅 


最 优 解 ， 且 其 
算法 的 每 次 欠 代 中 将 拉 普 拉 斯 噪声 引 


E 荐 模型 的 隐私 保护 。 梯 
更 新 模型 从 而 得 到 局 部 
方法 通过 在 


入 梯度 下 降 # 


又 来 保证 


用 户 对 9000 部 电影 的 100000 条 评分 记录 和 月 


电影 所 标注 的 1300 条 标签 信息 。 评 分 范围 为 1-5 之 间 的 


Fane 


爱 程度 ， 数 值 越 大越 喜 欢 。 数 据 稀 疏 度 


户 的 喜 


中 包括 700 个 
户 对 
整数 ， 代 表 用 

为 98.4%。 实 验 采 | 
与 测试 集 的 比 


3.2 实验 评估 指标 


区 


本 文 为 评 


(MAB) 为 评价 指标 ， 


计算 公式 为 


整个 矩阵 分 解 过 程 中 差分 隐私 机 制 。 另 外 ， 可 以 设置 噪声 误 


差 以 限制 


虹 声 的 影响 ， 迭 代 次 数 k 是 事先 已 知 的 ， 


其 中 :大 代表 | 


户 u 对 项 目 i 


所 以 每 次 


迭 代 中 引入 的 噪声 可 以 保持 se/2K- 差分 隐私 。 大 次 迭代 保持 


了 /2-- 差分 隐私 。 


Algorithm 2: private SGD perturbation 


Input: R= {rui} — “user-item’” rating matrix; 


d — number of factors; 
0 — learning rate parameter; 


1.— regularization parameter; 


k— number of gradient descent iterations; 


emar 一 Upper bound on per-rating error; 


8 一 Privacy parameter. 


Output: Latent factor matrices P 


and O. 


: Initialize the random latent factor matrices Pand O 


1 
2: fork iterations do 

3 for each msR do 

4 @'=1i— Pq +Lap(kAr/2e) 


iF! 
Emx fe'< en 


5: =4e" if |e "|< en 

Com fe'>evw 
6: update matrix P according to formula (14) 
7: update matrix Q according to formula (15) 


8: return final P and 0. 


算法 2 中 第 4 行 在 误差 中 加 入 拉 普 拉 斯 噪声 ， 并 在 第 5 


行 中 控 制 误 其 在 可 接受 范 围 


参数 入 =m -rn 代表 最 大 评分 与 最 咱 
定理 2 


证 明 对 于 两 个 相 邻 评 分 矩阵 R 和 R'， 


评分 误差 w 的 LL 敏感 度 为 


max lleis(R)-es(RNNS maxll(r -pg7) -7 pgn) 


<Ar 


\ 评 分 的 差距 。 


内 。 参 数 k 是 预 设 的 迭代 次 数 ， 


整个 矩阵 分 解 过 程 满足 e- 差 分 隐私 。 


Ea = ha 


Pd? ， 


(20) 


根据 Laplace 机 制 ,第 4 行使 每 次 评分 都 满足 =/2K- 差分 


隐私 。1 
求解 过 程 满 足 s/2- 差分 隐私 。 


于 迭代 的 总 次 数 为 kx， 根据 差分 隐私 的 组 合 性 可 得 


最 后 ， 结 合 定理 2 通过 组 合 性 可 得 整个 矩阵 分 解 过 程 满 


足 -差分 隐私 机 制 。 
3 ”实验 结果 及 分 析 


3.3 ”对比 算法 
将 本 文 提出 的 差分 隐私 推荐 算法 (DPMFBT)、 非 隐私 保 


交叉 验证 法 将 数据 集 分 为 10 组 ， 训 练 集 
例 为 9:1。 


佑 推荐 结果 的 准确 率 ， 采 用 平均 绝对 误差 


这 个 指标 越 小 代表 预测 准确 度 越 高 。 其 


(21) 


的 预测 评分 ， |R| 为 评分 总 数 。 


护 推 荐 算法 (MFBT) 分 别 与 五 种 推荐 算法 进行 比较 ， 验 证 
本 文 算法 的 有 效 性 : 
a) 与 基于 标签 的 用 户 最 近邻 推荐 (TOCF) 对 比 , 验证 同样 


加 入 标签 


六 息 的 情况 下 本 文 算法 的 


9 效 性 。 


b) 与 SVD++ 进 行 对 比 ， 验 证 在 矩阵 分 解 中 将 标签 相似 


度 作为 正则 化 


c) 与 传统 梯度 
私 和 矩阵 分 解 下 加 入 标 


项 的 


了 效 性 。 


扰乱 矩阵 分 解 PSGD) 对 比 , 验证 


在 差分 隐 


签 隐私 相似 度 的 有 效 性 。 


d) 与 ALS 输出 加 扰 矩 阵 分 解 (PALS) 对 比 ， 验 证 在 差分 


隐私 和 矩阵 分 解 下 加 入 标签 隐私 相似 度 的 
扰动 的 SVD++ 隐 私 保护 (DPSS++) 对 比 ， 


e) 与 基于 梯度 


效 性 。 


比较 标签 信息 


与 其 他 隐 式 反馈 在 矩阵 分 解 中 关于 准确 度 和 品 


声 敏 感度 方面 的 优 务 。 
算法 1 在 基于 用 户 的 协同 过 滤 中 整合 标签 信息 ， 利 用 标 
签 来 选择 用 户 的 扩展 最 近邻 居 填 充 用 户 相似 度 和 矩阵 以 降低 数 


据 稀 疏 性 。 算 法 2 在 SVD 的 基础 上 加 入 隐 反 馈 信 息 以 提高 推 
荐 精度 。 算 法 3 为 传统 拢 
传统 交替 最 小 二 乘法 输出 加 扰 。 算 法 5 将 梯度 扰动 思想 加 入 


到 SVD++ 


E 荐 方法 


3.4 实验 比较 与 分 析 


阵 分 解 的 梯度 扰动 算法 。 算 法 4 为 


的 求解 过 程 中 。 


本 文 实验 的 参数 设置 如 表 2 所 示 。 


表 2 实验 参数 设置 


Table 2 Experimental parameter setting 


在 本 章 中 ， 通 过 


体 实验 将 本 文 提 出 的 算 当 


应 用 在 


实 


变量 名 说 明 默认 值 
d 潜在 特征 向 量 维度 5 
a 学 习 速率 0.001 
4 惩罚 参数 0.01 
大 项 目 邻 居 数 8 
8 隐私 预算 2 
pb 项 目 相似 度 正则 化 参数 0.01 
a 评分 相似 度 权重 07 
b 标签 相似 度 权重 0.3 
Emar 评分 误差 上 界 2 
实验 1 本 文 算法 与 邻 域 协同 过 滤 算 法 的 对 比 。 
本 实验 为 主要 考察 不 同方 法 在 稀 疏 数据 集 上 的 推荐 精确 
度 。 将 本 文 提 出 的 MFBT, DPMFBT 算法 与 文献 [3] 基 于 标签 
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邻 域 协同 3 


滤 推 荐 比较 ， 证 明 本 文 算 法 有 效 性 并 分 析 邻 


目 对 精 
从 图 2 


明基 


度 的 影 晶 。 
中 看 出 ， 本 文 算法 明显 有 着 更 低 的 MAE 值 ， 


于 模型 的 滤 在 稀 琉 数据 上 


协同 过 滤 比 基 于 邻 域 的 协同 过 


有 优 
台 推荐 精 


最 小 。 但 当 


渐 趋 于 平稳 ， 


用 户 和 项 


实验 表明 ， 本 文 提出 的 方法 
在 加 入 隐私 保护 的 情况 下 不 会 对 


势 。 并 且 邻 居 数 目 
度 随 


k 的 值 对 推荐 


信 | 
™ 


< 


导数 目 继续 增长 时 推荐 进度 反 
这 是 因为 当选 择 的 邻居 较 多 时 ， 把 并 
纳入 到 最 近邻 中 从 而 得 到 不 准确 的 结果 。 


= 


结果 有 明显 影响 ， 刚 
邻居 数 的 增加 而 减 小 , 在 k=20 时 MAE 达到 
[会 降低 ， 但 逐 
不 相似 的 


居 数 


表 


开 


了 更 高 的 推荐 精度 ， 


仍 具 有 
实验 2 
本 


较 高 的 推荐 精度 。 


实验 考察 以 不 同比 例 融 合 相 


相似 度 权 重 对 推荐 结果 的 影响 。 


以 度 对 推 


响 。 以 
[0, ， 用 于 


户 评分 计算 出 的 相似 度 a 为 横 坐 标 ， 取 值 范 
度 的 变化 情况 。 


观察 在 不 同 相 似 度 权重 下 推荐 精 


从 图 3 


重 减 小 时 , 非 隐私 保护 失 
算法 (DPMFBT) 的 MAE 值 都 逐 注 


且 


E 荐 精度 造成 很 大 的 损失 


荐 结果 造成 的 影 


围 为 


融合 标签 相似 度 的 差分 隐私 矩阵 分 解 


提出 的 


住 荐 算法 
实验 3 隐私 保护 对 ] 


本 实验 意 在 考察 差分 隐私 对 不 同 算法 的 影响 。 
隐私 保护 扒 


储 荐 结果 的 影响 。 
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天 


此 本 


期 


文 


荐 算法 与 文献 [14] 提 出 的 DPSS++ 和 文献 


[11] 提 出 的 PSGD 及 PALS 算法 进行 对 比 。 观 察 在 不 同 隐私 


预算 下 


各 算法 MAE 的 变 
从 图 4 中 可 以 看 到 


化 情况 。 


dS 


推荐 全 


的 增加 而 降低 ， 这 是 因为 差分 


入 的 噪声 越 多 ， 隐 私 
中 PSGD 与 PALS 算法 的 
为 这 两 种 方法 都 只 考虑 
以 ， 因 此 这 两 种 


应 地 降低 。 其 
趋势 


法 的 


也 最 为 接近 , 这 是 
并 且 这 两 种 算法 求解 最 
线 最 为 相似 。 

DPSS++ 与 本 文 算法 DPMFBT 在 评分 


果 护 级 别 


天 
优 值 的 


隐私 的 特 ; 


也 就 越 高 ， 但 


二 
荐 精度 会 


起 


> 


核心 思想 相 


和 和 


言 息 的 基础 上 考 


了 隐 式 反馈 和 标签 信息 
和 PALS 更 低 的 MAE 值 。 
的 时 候 ，PSGD 与 PALSMAE 值得 变化 | 


可 以 看 出 ， 当 


减少 小 ， 


当 评 分 相似 度 权 重 增 大 标签 相似 度 权 
E 荐 算法 (MFBT) 和 带 隐私 保护 的 推荐 
当 a=0.7 是 达到 最 


低 点 0.658(MDBT) 和 0.665(DPMFBT)， 之 后 其 MAE 值 又 逐 


SI 


步 上 升 。 
时 的 MAE 
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4 ”结束 语 


本 文 以 矩阵 分 解 推荐 模型 为 出 发 点 ， 针 对 人 们 所 关心 的 
隐私 保护 问题 ， 将 差分 隐私 应 用 到 矩阵 分 解 推荐 模型 并 结合 
标签 信息 ， 提 出 了 一 种 融合 标签 信息 的 差分 隐私 推荐 模型 
在 该 模型 中 ， 利 用 项 目的 融合 相似 度 重 表示 项 目 潜在 特 生 
阵 ， 使 每 个 项 目 特征 向 量 与 其 邻居 的 潜在 特征 向 量 接近 以 

精度 ， 并 在 相似 度 与 随机 梯度 下 降 法 的 求解 过 程 
立 斯 噪声 ， 使 整个 推荐 过 程 满足 -差分 隐私 。 通 过 
算法 对 比分 析 ， 证 明了 本 文 提出 的 算法 在 保证 
用 户 隐私 的 情况 下 ， 能 获得 与 非 隐 私 保护 算法 相近 的 推荐 精 
度 。 但 是 如 何 针对 不 同 用 户 设置 隐私 保护 级 别 仍 是 个 问题 。 
下 一 步 的 研究 工作 是 根据 用 户 关 心 隐私 的 程度 选取 不 同 的 隐 
私 预 算 参 数 。 
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